import pdfplumber
import pandas as pd

# PDF 文件路径
pdf_path = "test.pdf"
# Excel 文件输出路径
excel_path = "output.xlsx"

# 使用pdfplumber打开PDF文件
with pdfplumber.open(pdf_path) as pdf:
    # 创建一个空的DataFrame，用于存储所有提取的表格数据
    all_tables = pd.DataFrame()
    # 初始化一个标记，用于跟踪是否是第一个工作表
    first_sheet = True
    # 遍历PDF中的每一页
    for page in pdf.pages:
        # 提取当前页中的表格数据
        tables = page.extract_tables()
  
        print(type(tables))
        # 遍历当前页的所有表格
        for table in tables:
            if first_sheet:
                header = table[0]
                df = pd.DataFrame(table[1:],columns=header)
                first_sheet= False
            else :
                df = pd.DataFrame(table[0:],columns=header)
            all_tables = all_tables.append(df, ignore_index=True)
print(all_tables)

# 将所有提取的表格数据保存为Excel文件
all_tables.to_excel(excel_path, index=False)